統計モデルの数理 |

(1)

情報・システム工学概論

統計モデルの数理

—

第１回：統計モデルの考え方

—

駒木文保 工学部計数工学科

2018

年

10

月

29

日

(2)

物理モデルと統計モデル

（広い意味の）物理モデル

▶

ニュートンの運動方程式，マクスウェルの方程式，

シュレディンガー方程式

,

^．^．^．

▶

^{回路，制御，}^．^．^．

▶

ロトカ・ヴォルテラ方程式，ホジキン・ハックスレー方 程式，．．．

微分方程式を用いたモデルが多い 統計モデル

不確実な現象のモデリング 比較的新しいパラダイム

統計的モデリングの考え方の発展については，例えば

（日本語訳の文庫本）などが参考になる．

(3)

簡単な統計モデル１２項分布モデル

θ:

コイン投げで表の出る確率

x:

^コインを

N

回投げたとき表の出る回数

(

^確率変数

) x

^{のしたがう確率分布}

:

^２項分布

Bin(N, θ)

P (x; θ) = ( N

x )

θ

^x

(1 − θ)

^N⁻^x

.

[

3[ | ǉ

0 1 2

0.00.250.50

コインの表の出る回数の確率

P(x; θ), N = 2, θ = 1/2

(4)

ゆがんでいないコインであれば，

θ =

¹₂

コインの歪んでいるとき，

θ ∈ [0, 1]

の値は正確にはわからない．

θ:

^{パラメータ}

未知であることを強調して，未知パラメータともいう ２項分布

Bin(N, θ)

^全体

:

θ

^{をもつ２項分布モデル} パラメータを変えて得られる確率分布全体を（パラメトリック な）統計モデルと呼ぶ．

x

が観測されたとき，

θ

についてどのようなことがいえるのか．

(5)

簡単な統計モデル２正規分布モデル

正規分布

N(0, 1)

^（

0

^は平均

, 1

^は分散）

x

p(x)

-4 -2 0 2 4

0.00.20.4

正規分布

N(0, 1)

の確率密度関数．

(6)

平均

µ,

^分散

σ

² ^{の正規分布}

N(µ, σ

²

)

^{の確率密度関数}

p(y ; µ, σ

²

) = 1

√ 2πσ

²

exp {

− 1

2σ

²

(y − µ)

²

}

.

最も基本的で重要な分布 中心極限定理

▶

人間の身長の分布は正規分布でよく近似できる

(7)

いろいろな正規分布

x

p(x)

-5 0 5 10 15

0.0 0.4 0.8

N(0,1)

N(5,4)

N(10,0.25)

N(0, 1), N(5, 4), N(10, 0.25)

．

(8)

µ, σ:

正規分布

N(µ, σ

²

)

全体

:

パラメータ

µ, σ

² をもつ統計モデル 物体の長さをある装置を使って測定

µ

₀

:

物体の真の長さ

ε:

装置の測定誤差

測定の結果得られる観測値

µ

0

+ ε

測定誤差

ε

^の分布

N(0, σ

₀²

)

(9)

測定の結果得られる観測値の分布：

正規分布

N(µ

₀

, σ

²₀

)

（真の分布）

実際に測定を行う人は

µ

₀ の値を知らない．

装置の性能も分からない場合には

σ

²₀ の値も未知．

正規分布モデル

N(µ, σ

²

)

を仮定して，

µ

₀ と

σ

₀² を推定 物体の長さと装置の測定誤差がわかる．

(10)

回帰モデル

データ：

N

人についての身長と体重を組にした測定値

.

データをもとにして，身長から体重を予測したい．

回帰モデルの応用は非常に広い．

一般的な傾向として身長の高い人ほど体重も重い傾向．

身長を

x

，体重を

y

として

y = bx + c + ε, ε ∼ N(0, σ

²

)

の直線状の関係を仮定してデータを解析

.

ε

^は平均

0,

^分散

σ

² ^{の正規分布}

N(0, σ

²

)

^{にしたがう確率変数．}

ε

により，同じ身長のひとでも体重が違うことをモデル化できる．

(11)

未知パラメータは

b, c , σ

^．

b > 0

ならば，身長が増えると体重も増える傾向をもつ．

データから

b c σ

の推定値

b, ˆ ˆ c , ˆ σ

を得ることにより，身長と体 重の関係式

y = ˆ bx + ˆ c + ε, ε ∼ N(0, ˆ σ

²

)

を利用して，身長から体重が予測できる．

(12)

回帰モデル．身長と体重の仮想的なデータのプロットと，データ に当てはめた直線

y = ˆ bx + ˆ c

^．

(13)

マルコフ連鎖モデル

簡単のために，天気に晴と雨しか無いと仮定

.

第

n

^{日目が晴であれば}

X

n

= 0,

^{雨であれば}

X

n

= 1

^と表す．

確率変数の列

X

0

, X

1

, X

2

, . . .

^{を考える．}

p:

晴れた日の翌日に晴れる確率

,

（晴れた日の翌日に雨が降る確率は

1 − p

），

q:

雨が降った日の翌日に晴れる確率

,

（雨が降った日の翌日に雨が降る確率は

1 − q

^） マルコフ連鎖と呼ばれるモデルのクラスの簡単な例．

p, q:

^{モデルのパラメータ．}

過去のデータから

p

^と

q

^の推定値

p, ˆ ˆ q

を構成して，今日の天気 から明日の天気が予測できる．

(14)

マルコフ連鎖モデルを一般化した隠れマルコフモデルは音声認識 やアミノ酸配列・塩基配列の解析（遺伝子解析）等で広く利用さ れる．

マルコフ連鎖は１次元の構造をもっている．これを多次元に拡張 したマルコフ場モデルは，画像解析や空間統計学などで利用さ れる．

x

⁰

x

¹

x

²

x

^N-1

x

^N

マルコフ連鎖

(15)

ベイジアンネットワーク

マルコフ連鎖は１次元の構造をもつ．

ベイジアンネットワーク，グラフィカルモデル，

確率ニューラルネットワーク

多くの確率変数が影響を及ぼし合うことを考慮したモデル

(16)

簡単な例 (Cowell ^他 , 1999)

計算機が動作しないときに考えられる２つの原因

停電

or

計算機故障

二つとも原因として考えらえるが，室内の照明も点灯しなければ，

原因が停電である可能性が高くなる．

X

₁

:

停電であるかないか

X

2

:

計算機が故障しているかいないか

X

₃

:

照明が点灯するかしないか

X

₄

:

計算機が動作するかしないか それぞれ

1

^か

0

^{かで表す．}

確率変数

X

1

, X

2

, X

3

, X

4 が互いに影響を及ぼしあっている程度を 数値化して，パラメトリックな統計モデルを構築．

(17)

このモデルを利用することにより，計算機の故障の原因に関する 推論が自動的にできる．

このような統計モデルは，人工知能，パターン認識，データ圧縮，

符号理論などの分野で利用される．

ベイジアンネットワーク

(18)

統計モデルのパラメータ推定

統計モデルのうちで最も簡単な正規分布モデル

N(µ, τ )

^{を考える．}

以下，

σ

² ^を

τ

^{と書き換える．}

真の分布

p

₀

(y)

にしたがうデータ

x

₁

, x

₂

, . . . , x

_n が得られたとき，

データを基にして，なるべく真のパラメータ

µ

₀

, τ

₀ に近い推定値

ˆ

µ, τ ˆ

^{を得たい．}

p

0

(y )

^{をよく近似する}

p(y; ˆ µ, τ ˆ )

をデータに基づいて選ぶことは，

パラメータ推定と呼ばれる重要な問題．

最尤推定

:

さまざまな統計モデルに応用できるパラメータ推定法

(19)

Kullback–Leibler ^{ダイバージェンス}

推定の良さを評価するためには真の分布の確率密度関数

p

0

(y)

^と 推定した確率密度関数

p (y; ˆ µ, ˆ τ )

との近さを評価する必要がある．

定義．確率密度関数

p(y)

から

q(y)

への

Kullback–Leibler

ダイ バージェンス（相対エントロピーとも呼ばれる）

D(p, q) =

∫

p(y) log p(y) q(y) dy

p(y), q(y)

がどのくらい離れているかを表す．

統計学や情報理論で本質的な役割を果たす

.

^重要

!

(20)

例

.

正規分布

N(µ

₁

, τ

₁

)

から

N(µ

₂

, τ

₂

)

への

Kullback-Leibler

ダイ バージェンス

D(p(y ; µ

1

, τ

1

), p(y; µ

2

, τ

2

)) = 1 2

{( τ

1

τ

2

− log τ

1

τ

2

− 1 )

+ 1 τ

2

(µ

1

− µ

2

)

²

}

.

(21)

Kullback-Leibler

ダイバージェンスは非負の量で，

p = q

^のときの み

0

になるという距離に似た性質を持つ．

距離の公理は満たさない．

D(p, q) = D(q, p)

は成立しない．

真の分布

p

0

(y)

^{から推定した分布}

p (y; ˆ µ, ˆ τ )

^への

Kullback-Leibler

ダイバージェンス

D(p

₀

(y), p(y ; ˆ µ, τ ˆ ))

を最小にする

µ, ˆ ˆ τ

を選ぶことができれば良い．

p

₀

(y )

は未知なので工夫が必要．

(22)

真の分布

p

0

(y)

からモデルに属する分布

p(y; µ, τ )

^への

Kullback-Leibler

^{ダイバージェンスを}

D(p

₀

(y), p(y; µ, τ )) =

∫

p

₀

(y) log p

₀

(y) p(y; µ, τ ) dy

=

∫

p

₀

(y) log p

₀

(y)dy −

∫

p

₀

(y) log p(y; µ, τ )dy

のように変形．

第１項はパラメータの値によらない項なので，

D(p

0

, p (y; µ, τ ))

を最小化することは

∫

p

0

(y) log p(y; µ, τ )dy

を最大化することに帰着．

∫ p

₀

(y) log p(y; µ, τ )dy

は

log p(y ; µ, τ )

の

p

₀ に関する期待値．

(23)

真の分布

p

₀

(y)

はわからないため，

p

₀ に関する期待値をデータ，

x

1

, x

2

, . . . , x

n に対する平均

1 n

∑

n i=1

log p(x

_i

; µ, τ )

におきかえる．

この量は対数尤度関数（パラメータ

µ, τ

の関数とみなす）と呼ば れるものになっている．

これを最大化する

µ, τ

^の値

µ, ˆ ˆ τ

^{が最尤推定量．}

(24)

パラメータ

µ, τ

の最尤推定量

µ, ˆ τ ˆ

の具体的な形は

ˆ

µ =

∑

_n

i=1

x

_i

n , τ ˆ =

∑

_n

i=1

(x

_i

− µ) ˆ

²

n .

最尤推定はさまざまなモデルに対して汎用的に用いることのでき る推定法．

複雑な統計モデルに対して，最尤推定量を求めるためには計算機 を利用した最適化手法の利用が必要．

(25)

モデル選択

統計的モデルを利用したデータ解析を行う場合，最初からひとつ のモデルが特定できていることは少ない．

いくつかのモデルの候補のうちから一番よいと思われるモデルを 選択するのが普通．

どのようにしてモデルを選択するのかは統計的手法を利用する際 の重要な問題．

▶

データの特性を忠実に表現するにはある程度複雑なモデルを 利用することが必要．

▶

あまり複雑なモデルを採用するとパラメータの推定の精度が おちる．

(26)

赤池情報量規準 (Akaike’s Information Criterion, AIC)

データに基づいて適切なモデルを選択するための規準 定義

AIC = −2 ×

^{モデルの最大対数尤度}

+ 2 ×

^{モデルのパラメータ数}

.

最大対数尤度が大きければモデルがデータに良く当てはまってい ることになる．

▶

モデルを複雑にすると第１項は小さくなる（最大対数尤度は 大きくなる）．

▶

モデルを複雑にするとモデルのパラメータ数が大きくなる．

ＡＩＣを小さくするモデルを選ぶことにより，データに対するあ てはまりの良さとモデルの複雑さとのバランスをとる．

(27)

google ^ロゴ (2017 ^年 11 ^月 5 ^日 )

Hirotugu Akaike’s 90th Birthday

https://www.google.com/doodles/hirotugu-akaikes-90th-birthday

(28)

例．多項式回帰モデル

y

_i

, i = 1, 2, . . . , N:

正規分布

N(f (x

_i

), σ

²

)

にしたがう観測値

. f (x):

^{なめらかな関数で}

σ

² ^{とともに未知．}

k

次多項式回帰モデル

y

i

= a

0

+ a

1

x

i

+ a

2

x

i2

+ · · · + a

k

x

ik

+ ε

i

, ε

i

i.i.d. ∼ N(0, σ

²

)

を仮定して解析する．

(29)

f (x)

は高次の多項式を使えば原理的にはいくらでも精密に近似で きる．

高次の多項式を使うと推定するパラメータ

a

₀

, a

₁

, . . . , a

_k

, σ

² の数 が多くなり，観測値の数が限られているので，パラメータ推定の 精度が悪くなる

⇒ f (x)

の近似は必要以上に高次のモデルを利用するとかえって 悪くなる．

数値例：

f (x) = sin x, σ = 0.3

f (x)

を

1 ∼ 5

次の多項式モデルを用いて推定．

(30)

(31)

実線：真の

f (x),

^点線：

2

^{次式を用いた推定結果}

(32)

(33)

実線：真の

f (x),

^点線：

4

^{次式を用いた推定結果}

(34)

(35)

参考文献

Salsburg, D. S. (2010)

統計学を拓いた異才たち，竹内・熊谷訳，

日本経済新聞出版社

Cowell, R. G., Dawid, A. P., Lauritzen, S. L., Spiegelhalter, D. J. (1999) Probabilistic Networks and Expert Systems, New York: Springer-Verlag.

坂元慶行・石黒真木夫・北川源四郎

(1983)

情報量統計学，共立 出版．

小西貞則，北川源四郎

(2004).

^{情報量規準，朝倉書店}

.

統計モデルの数理 |